[レポート] Accelerating data & AI dev with the next generation of Amazon SageMakerに参加しました #AWSreInvent #ANT351-NEW
はじめに
データ事業本部のkobayashiです。ラスベガスで開催されていたre:Invent2024に現地参加しました。
本記事は AWS re:Invent 2024 のセッション「ANT351-NEW | [NEW LAUNCH] Accelerating data & AI dev with the next generation of Amazon SageMaker」のセッションレポートです。
このセッションでは、Amazon SageMakerの次世代バージョンについて解説がありました。主な特徴として、統合された開発環境であるSageMaker Unified Studioが紹介され、データの取り込みから分析、機械学習モデルの開発、デプロイメントまでをシームレスに行える機能が示されました。次にガバナンスの観点から、ユーザー管理、インフラストラクチャ、ユースケース、組織の4つの柱に基づいた制御が可能となり、エンタープライズレベルでの運用を実現できることが説明されました。
またChalk Talkセッションなので後半では参加者からの質問を元に質疑応答が行われました。
セッションの概要
タイトル
ANT351-NEW | [NEW LAUNCH] Accelerating data & AI dev with the next generation of Amazon SageMaker
概要
Explore the latest capabilities of the next generation of Amazon SageMaker. In this chalk talk, dissect the architecture and implementation details of key features, including the new SageMaker Unified Studio, open lake house architecture, and built-in data and AI governance. Gain in-depth knowledge of how to leverage these capabilities to build a unified platform for data, analytics, and AI. Leave with actionable insights on optimizing your SageMaker workflows and architectures to accelerate data and AI development at your organization.
a
- Level:300
- Session Type: Chalk talk
スピーカー
- David Victoria, Senior Product Manager, Amazon
- Nishchai JM, Sr Solution Architect, Amazon Web Services
内容
はじめにアジェンダです。
- 次世代Amazon SageMakerの概要
- SageMaker Unified Studioにおけるデータワーカーの体験
- SageMakerを使用したエンタープライズアーキテクチャとガバナンス
Next Generation Amazon SageMaker
- データ分析、機械学習、生成AIのワークロードが拡大する中で、これらのワークフローは同じデータや手順を使用する傾向にある
- データエンジニア、データサイエンティスト、ビジネスアナリスト、プロンプトエンジニアといった役割も、実際には一人で複数の役割を担うケースが増えている。
- 組織内でのデータの所在確認や適切なアクセス権の取得が困難で、人的ネットワークに頼らざるを得ない状況が課題となっている。
- これらの問題に対して、統合されたプラットフォームによる解決が求められている。
サービスは「Experience」「Act」「Govern」「Store」の4層に分類されるが、包括的な目的別サービス群とパフォーマンスおよびコストの最適化が求められている。そのため統合された開発体験(Unified development experience)と統合されたデータ管理(Unified data management)の2層構造で、これらが密接に連携することで、シームレスな開発環境とデータ管理を実現することを目指している。
その目的を達成するために次世代のAmazon SageMakerは、データ、分析、AIのための中央プラットフォームとして設計されている。
- SageMaker Unified Studioでは、データ処理、SQL分析、モデル開発、GenAIアプリ開発、ビジネスインテリジェンス、検索、ストリーミングなどの機能を提供している。
- その下層にデータとAIのガバナンス層があり、さらにLakehouseという基盤層がある。
- これにより、すべてのデータと分析ニーズを1つの統合されたプラットフォームで管理できる
AWSは、データ分析、AI、機械学習のワークロードが拡大し収束する中で、新世代のAmazon SageMakerを発表しました。
この新プラットフォームは4つの主要な特徴があります。
- 単一のデータ・AI開発環境を提供し、より迅速なコラボレーションと構築を実現
- あらゆるAIユースケースを開発・スケールできる最も包括的なツールセット
- すべてのデータを統合するオープンなデータレイクハウス
- エンタープライズのセキュリティニーズに対応する、ビルトインのデータ・AIガバナンス
このプラットフォームは、世界で最も採用されている機械学習サービスと最も包括的な分析ツールを組み合わせ、Amazon Bedrockの機能を統合することで、単一の操作可能な環境を実現しています。
SageMaker Unified Studioは、すべてのデータとAIのための統合された体験を提供する新しいプレビューサービスです。
主な特徴として:
- 作業内容に関係なく、ベストインクラスのツールを使用可能
- AIモデルのトレーニング、カスタマイズ、大規模なデプロイが可能
- カスタム生成AIアプリケーションの迅速な構築をサポート
- Amazon Q Developerによるデータプロセスの加速
これらの機能はすべて、組み込みのデータとAIガバナンスによって支えられています。このプラットフォームは単なるツールの寄せ集めではなく、すべてのコンポーネントが連携して動作するように一から設計されており、データ、モデル、コード、設定を一元的に管理・バージョン管理できます。
SageMaker Unified Studioの新しい認証方式について、重要な変更が導入されました。従来のAWSコンソールアクセスは不要となり、より柔軟な認証オプションが提供されます
- ユーザー自身のアイデンティティでログイン可能
- 組織の既存のアイデンティティプロバイダーを使用可能
- AWS IAM Identity Centerをサポート
- SAML認証に対応
これは「Login as YOU」という概念で、ユーザーは匿名のIAMロールではなく、個人として認識されます。これにより、組織のActive Directoryやその他の認証システムとシームレスに統合でき、ユーザー管理とアクセス制御がより直感的になります。また、Trusted Identity propagationの実装により、アクセス権限が全てのAWSサービスに伝播されます。
SageMaker Unified Studioは「Authorized as YOU」という新しい認可の概念を導入し、以下の3つの重要な特徴があります
- ユーザー/グループレベルでの機能アクセス制御
- 個人やグループ単位で利用可能な機能を制御可能
- IAMロールベースではなく、より直感的な権限管理
- プロジェクトレベルでのデータアクセス制御
- プロジェクト単位でデータへのアクセスを管理
- コラボレーション時の適切なデータアクセス制御が可能
- Trusted Identity Propagation(近日公開)
- ユーザーのアイデンティティが全AWSサービスに伝播
- 実際のデータソースに対して、個人としての認証が可能
これにより、より細かな権限管理と安全なデータアクセスが実現されます。
SageMaker Unified Studioは「use the tools YOU need」という考えに基づき、以下の特徴を提供します
- カスタマイズ可能なプロファイル
- ユーザーやチームごとに必要なツールセットを定義可能
- 不要なツールを非表示にしてシンプルな作業環境を実現
- 統合された分析・ML・GenAIツール
- 異なる種類のツールが連携して動作
- データ分析からモデルのデプロイまでシームレスに実行可能
- ユースケースに特化したツール選択
- 特定の作業に必要なツールに焦点を当てた環境を構築可能
- 業務効率の向上とリソースの最適化を実現
これにより、ユーザーは自身の業務に最適化された環境で作業を行うことができます。
SageMaker Unified Studioは「Organize your work」という概念を導入し、プロジェクトベースの管理を実現します
- プロジェクトによる統合管理
- ワークロード、データ、計算リソースを一元的に管理
- ノートブック、クエリ、ワークフロー、トレーニングジョブなどを1つのプロジェクトにまとめて管理
- アカウントやリージョンを超えた管理が可能
- セキュリティ境界の提供
- プロジェクト単位で分離された作業環境を提供
- プロジェクトメンバー以外はデータやコードにアクセス不可
- コラボレーション時の適切なアクセス制御を実現
これにより、複数のサービスやリソースを跨ぐ作業を効率的に管理しながら、セキュリティも確保できます。
SageMaker Unified Studioは「Provision your Compute」機能を提供し、以下の特徴があります
- カスタマイズ可能なプロビジョニングアクション
- コンピュートリソースとストレージの柔軟な設定が可能
- プロジェクトごとに必要なリソースを定義可能
- 管理者による制御と制限の設定が可能
- CloudFormationベースのテンプレート
- インフラストラクチャをコードとして管理
- 再利用可能なテンプレートによる一貫した環境構築
- プロジェクト要件に応じたカスタマイズが可能
- 完全な追跡とカスケード削除
- リソースの使用状況を完全に追跡
- プロジェクト削除時に関連リソースを自動的に削除
- 不要なリソースの残存を防止
これにより、効率的なリソース管理と費用対効果の高い運用が実現されます。
SageMaker Unified Studioは「Discover your Data」機能を提供し、以下の特徴があります
- 中央カタログへのパブリッシュ/サブスクライブ機能
- データを中央カタログに公開可能
- 他のユーザーが必要なデータを検索・発見可能
- データへのアクセス要求と承認プロセスを自動化
- データ所有者による承認後、即座にアクセス権限が付与
- 外部データソースとカタログへの接続
- 外部データソースへの接続が可能
- 既存のデータカタログとの統合
- シームレスなデータアクセスを実現
これにより、組織内のデータ資産の発見性が向上し、データ活用の効率が大幅に改善されます。また、適切なガバナンスを維持しながら、データの共有と再利用が促進されます。
SageMaker Unified Studio
SageMaker Unified Studioの実際の画面を使ってのデモがありましたが省略します。
SageMakerを使用したエンタープライズアーキテクチャとガバナンス
SageMakerのデータメッシュアーキテクチャは、「データの完全な民主化のためのスケールとボトルネックの解消」を目的としており、以下の要素で構成されています
- プロデューサー(データ提供者)
- オブジェクトとデータの管理
- 分析サービスの提供
- カタログを通じたデータの公開
- コンシューマー(データ利用者)
- プロジェクトを通じたデータアクセス
- 分析サービスの利用
- カタログからのデータ検索と購読
- Amazon Unified Studio SageMaker domains
- ドメインユニットによる階層的な管理
- プロデューサーとコンシューマーの仲介
- セキュアなデータ共有の実現
このアーキテクチャにより、組織全体でのデータの効率的な共有と活用が可能となり、データの民主化を促進します。
Amazon SageMaker Unified Studioのガバナンスは、データの完全な民主化を実現するために4つの重要な柱で構成されています
- ユーザーガバナンス(USERS)
- アイデンティティ管理
- アクセス制御
- 認証・認可の統合管理
- インフラストラクチャガバナンス(INFRASTRUCTURE)
- コンピュートリソースの管理
- ストレージの制御
- セキュリティ境界の確立
- ユースケースガバナンス(USE CASE)
- プロジェクトタイプの定義
- 利用可能なツールの制御
- ワークフローの標準化
- 組織ガバナンス(ORGANIZATIONAL)
- ドメインユニットによる階層管理
- プロデューサー/コンシューマー関係の制御
- データ共有とアクセスの管理
これらの柱により、スケーラブルで安全なデータ活用基盤が実現されます。
Q&A
主な質疑応答
Q: 品質チェックなしでデータを公開できないようにできるか?
A: ワークフローを設定して、公開前の品質チェックやガードレールを実装できる。
Q: カスタムデータワークフローは可能か?
A: カスタムデータワークフローを実装できます。
Q: 複数アカウントの関連付けはどのように行うのか?
A: アカウントレベルでの信頼関係を確立し、その後ドメインレベルで権限を設定する。
Q: 1000以上のアカウントがある場合の自動化は?
A: インフラストラクチャのデプロイメントを通じて自動化をサポートしている
Q: Amazon DataZoneのポリシーを継承できるか?
A: Amazon DataZoneからの移行パスを提供予定で同じドメインとして扱われる。
Q: 既存のSageMakerドメインをUnified Studioに移行できるか?
A: 既存のSageMakerから新バージョンへの移行ガイダンスを提供予定。
Q: アカウントレベルでのアクセスが必要な理由は?
A: ドメインがどのアカウントと連携できるかを制御するための最初のステップとして必要。
Q: プロジェクトの作成ポリシーはどのように管理されるか?
A: ドメインユニットレベルでユーザーやグループに対する権限を設定できる。
まとめ
「ANT351-NEW | [NEW LAUNCH] Accelerating data & AI dev with the next generation of Amazon SageMaker」のセッションレポートをお届けしました。
新しく発表されたNext Generation SageMakerはUnified Studioでデータ周りの操作がすべて統合されて非常に強力なサービスとなっています。とても面白そうなので今後実際に触ってみてまたレポートを書きたいと思います。
最後まで読んで頂いてありがとうございました。